端到端的口语理解(SLU)使用单个模型直接从音频中预测意图。它有望通过利用中间文本表示中丢失的声学信息来提高助手系统的性能,并防止自动语音识别(ASR)中的级联错误。此外,在部署助手系统时,拥有一个统一模型具有效率优势。但是,具有语义解析标签的公共音频数据集有限的数量阻碍了该领域的研究进展。在本文中,我们发布了以任务为导向的语义解析(Stop)数据集,该数据集是公开可用的最大,最复杂的SLU数据集。此外,我们定义了低资源拆分,以建立有限的标记数据时改善SLU的基准。此外,除了人类录制的音频外,我们还发布了TTS生成版本,以基于端到端SLU系统的低资源域适应性的性能。最初的实验表明,端到端SLU模型的性能比级联的同行差一些,我们希望这能鼓励未来的工作。
translated by 谷歌翻译
根据语言熟悉效应(LFE),人们更好地区分母语的说话者。尽管这种认知效应在文献中很大程度上进行了研究,但实验仅在有限的语言对上进行,其结果仅显示出效果的存在,而不会产生逐渐的措施,而逐步的措施可能会随着语言对而变化。在这项工作中,我们表明Thorburn,Feldmand和Schatz(2019)引入的LFE计算模型可以解决这两个局限性。在第一个实验中,我们证明了该模型通过在本地和强调语音上复制行为发现来获得LFE的逐步度量的能力。在第二个实验中,我们通过大量语言对评估LFE,其中包括许多从未在人类上进行过测试的语言。我们表明,这种效果在各种各样的语言中得到了复制,从而提供了其普遍性的进一步证据。以LFE的逐步度量为基础,我们还表明属于同一家庭的语言产生了较小的分数,从而支持语言距离对LFE产生影响的想法。
translated by 谷歌翻译
在连续言语中找到单词边界是具有挑战性的,因为单词之间几乎没有或根本没有“空间”定界符。流行的贝叶斯非参数模型用于文本分割的模型使用Dirichlet过程来共同分段句子并构建单词类型的词典。我们介绍了DP-Parse,该DP-Parse使用类似的原则,但仅依赖于单词令牌的实例词典,避免了单词类型词典出现的聚类错误。在零资源语音基准2017上,我们的模型以5种语言设置了新的语音细分。该算法单调地改善了输入表示,当用弱监督的输入喂养时,得分却更高。尽管缺乏类型的词典,但DP-Parse仍可以管道使用到语言模型,并学习通过新的口语嵌入基准评估的语义和句法表示。
translated by 谷歌翻译
口头语言建模的最新工作表明,可以从原始音频中学习语言的可能性,而无需任何文本标签。该方法首先依赖于将音频转换为一系列离散单元(或伪文本),然后直接在此类伪文本上训练语言模型。这是必要的离散瓶颈,在语音信号的编码中可能引入不可逆转的错误,还是我们可以完全没有离散单位学习语言模型?在这项工作中,我们研究了离散和连续表示在口语建模中的作用。我们表明,离散化对于口语建模的良好结果确实至关重要。我们表明,离散化可以从连续功能中消除语言上无关的信息,从而有助于提高语言建模表演。在这项研究的基础上,我们培训了Hubert功能离散单元的语言模型,达到新的最先进的结果,导致了零资源语音挑战的词汇,句法和语义指标2021(轨道1-仅讲话)。
translated by 谷歌翻译
照料者与儿童之间的互动在人类语言获取和发展中起着至关重要的作用。鉴于这一观察结果,显式的互动在人工语言建模中几乎没有作用,这也针对人类语言的获取,但通过人工模型。此外,一种交互式的语言建模方法具有使语言模型更具用途并严重影响下游应用程序的潜力。在这些考虑因素上,我们开创了交互式语言建模的空间。作为第一个贡献,我们提出了一个路线图,在该路线图中,我们详细介绍了需要采取互动语言建模的步骤。然后,我们以身作则,并在此路线图上采取第一步,显示了我们方法的最初可行性。因此,这项工作旨在成为关于互动语言建模的更大研究议程的开始。
translated by 谷歌翻译
我们介绍了Shennong,一个Python工具箱和命令行实用程序,用于语音功能提取。它实现了广泛的既定现实算法状态,包括诸如熔融频率纤维滤波器或预测的线性滤波器,预先训练的神经网络,音高估计器以及扬声器归一化方法和后处理算法的谱时间滤波器。 Shennong是一种开源,易于使用,可靠和可扩展的框架。 Python的使用使得集成到其他语音建模和机器学习工具方便。它旨在替换或补充几种异质软件,例如Kaldi或Praat。在描述神农软件架构,其核心组件和实现的算法之后,本文说明了三种应用的使用:语音特征在手机辨别任务上的性能进行比较,作为语音函数的声音轨道长度归一化模型的分析用于训练的持续时间和各种噪声条件下的音高估计算法的比较。
translated by 谷歌翻译
语音情感转换是修改语音话语的感知情绪的任务,同时保留词汇内容和扬声器身份。在这项研究中,我们将情感转换问题作为口语翻译任务。我们将演讲分解为离散和解散的学习表现,包括内容单位,F0,扬声器和情感。首先,我们通过将内容单元转换为目标情绪来修改语音内容,然后基于这些单元预测韵律特征。最后,通过将预测的表示馈送到神经声码器中来生成语音波形。这样的范式允许我们超越信号的光谱和参数变化,以及模型非口头发声,例如笑声插入,打开拆除等。我们客观地和主观地展示所提出的方法在基础上优于基线感知情绪和音频质量。我们严格评估了这种复杂系统的所有组成部分,并通过广泛的模型分析和消融研究结束,以更好地强调建议方法的建筑选择,优势和弱点。示例和代码将在以下链接下公开使用:https://speechbot.github.io/emotion。
translated by 谷歌翻译
Practitioners use Hidden Markov Models (HMMs) in different problems for about sixty years. Besides, Conditional Random Fields (CRFs) are an alternative to HMMs and appear in the literature as different and somewhat concurrent models. We propose two contributions. First, we show that basic Linear-Chain CRFs (LC-CRFs), considered as different from the HMMs, are in fact equivalent to them in the sense that for each LC-CRF there exists a HMM - that we specify - whom posterior distribution is identical to the given LC-CRF. Second, we show that it is possible to reformulate the generative Bayesian classifiers Maximum Posterior Mode (MPM) and Maximum a Posteriori (MAP) used in HMMs, as discriminative ones. The last point is of importance in many fields, especially in Natural Language Processing (NLP), as it shows that in some situations dropping HMMs in favor of CRFs was not necessary.
translated by 谷歌翻译
Using a comprehensive sample of 2,585 bankruptcies from 1990 to 2019, we benchmark the performance of various machine learning models in predicting financial distress of publicly traded U.S. firms. We find that gradient boosted trees outperform other models in one-year-ahead forecasts. Variable permutation tests show that excess stock returns, idiosyncratic risk, and relative size are the more important variables for predictions. Textual features derived from corporate filings do not improve performance materially. In a credit competition model that accounts for the asymmetric cost of default misclassification, the survival random forest is able to capture large dollar profits.
translated by 谷歌翻译
The term ``neuromorphic'' refers to systems that are closely resembling the architecture and/or the dynamics of biological neural networks. Typical examples are novel computer chips designed to mimic the architecture of a biological brain, or sensors that get inspiration from, e.g., the visual or olfactory systems in insects and mammals to acquire information about the environment. This approach is not without ambition as it promises to enable engineered devices able to reproduce the level of performance observed in biological organisms -- the main immediate advantage being the efficient use of scarce resources, which translates into low power requirements. The emphasis on low power and energy efficiency of neuromorphic devices is a perfect match for space applications. Spacecraft -- especially miniaturized ones -- have strict energy constraints as they need to operate in an environment which is scarce with resources and extremely hostile. In this work we present an overview of early attempts made to study a neuromorphic approach in a space context at the European Space Agency's (ESA) Advanced Concepts Team (ACT).
translated by 谷歌翻译